查看原文
其他

科研快讯 | MGISEQ-2000助力单倍型组装技术开发

华大智造 华大智造MGI 2022-08-24


6月1日,青岛华大基因研究院在线发表预印文章Haplotype-Resolved Assembly for Synthetic Long Reads Using a Trio-Binning Strategy提供了一种基于Trio-Binning的单倍型组装技术HAST,通过简便的方法即可高效地从多倍体物种中组装出各个单倍型。利用这一研究成果,可以实现高杂合度、复杂多倍体植物的直接分型,获取更高质量的组装结果。
 
研究通过对人基因组的分析,根据亲本遗传特异点,按照亲本来源分类,利用HAST技术,基于Trio-Binning对MGISEQ-2000平台的stLFR测序数据进行分析,成功组装出两个完整的单倍型。这两个分别遗传自父、母本的单倍型组装,揭示了亲本特有的结构变异,为生物医学的广泛应用奠定了可靠的研究基础。
 
与常规混合组装相比,基于Trio-Binning利用测序数据进行单倍型组装策略已经在最近多个重磅研究中大放异彩,可以揭示更为准确的生物学机制,但同时也受限于测序技术的选择。考虑到不同测序技术的生信特点和测序成本,HAST技术同时提供了单倍型的单分子长片段集合,可以将不同测序技术的分型数据进行整合分析,实现了对算法和数据结构的优化,并且在运算时间、内存消耗和并行化等方面都展现了极大的优势。例如,结合其他长读长测序技术(PacBio或Oxford Nanopore)将DNBSEQ平台HAST技术组装的Contig延长到Mb级别,从而实现对“完美”基因组的探索和研究。
 
完整且准确的基因组分型对于刻画人类疾病与基因型(特别是杂合变异)的关联十分重要。HAST技术可以组装出scaffold超过11Mb的单倍型,组装准确率高达99.99995%*。这种完整的长程分型信息可以产生长达N50~13Mb的phase block,平均分型准确率高达99.3%,召回率94.1%,分型效率高,组装准确率高。这一准确高效的分型方案有利于确定同源染色体和异源染色体的构成、杂种优势的来源等,从而促进动植物育种和遗传疾病的研究。
*以亚洲男性全基因组标准品为例

图a. 利用HAST技术精确捕捉到的位于4号染色体的、父本特有的、长达460bp的缺失
图b. 利用HAST技术精确捕捉到的位于8号染色体的、母本特有的、长达315bp的插入



小贴士1

关于stLFR

stLFR是由华大智造自主开发的一项利用高精度短读长测序方法获取长片段DNA信息的创新技术。该技术仅需单管操作,从已提取好的长片段DNA起始,将转座子序列随机插入至长片段DNA中,然后利用一段夹板引物将转座子与带有多拷贝分子标签的磁珠载体结合,再引入第二个接头后进行PCR扩增和环化,最终完成文库构建,进行高通量测序。



图 stLFR技术原理


与传统的高通量短读长测序技术(reads分型率不到1.4%)相比,利用DNBSEQ平台的stLFR技术提供的barcode信息可以有效地将短reads聚类成一个个单分子长片段,并且随着其长度的增长,可分型的长片段比例越来越高,从8%(含10对reads及以下)增长到100%(含200对reads及以上)。因此,得益于stLFR测序数据在组装前的直接分型,在DNBSEQ平台利用HAST技术得到的单倍型组装图结构清晰,可以获取更高质量的组装结果。

图 stLFR分型特征



小贴士2

关于HAST

HAST(Haplotype-Resolved Assembly for Synthetic Long Reads Using a Trio-Binning Strategy)是由青岛华大基因研究院软件开发团队自主开发的一项基于trio binning的单倍型组装技术,可以高效地从复杂多倍体物种中组装出各个单倍型,分型效率高,组装准确率高。同时,HAST技术提供单倍型的stLFR长片段集合和单分子长片段集合,可以将不同测序技术的分型数据进行整合分析,准确捕捉杂合结构变异。




图 HAST的技术原理


>>>>

文章doi:

https://doi.org/10.1101/2020.06.01.126995

文章链接:

https://www.biorxiv.org/content/10.1101/2020.06.01.126995v1 


拓展阅读


 三种长片段测序方法对比

 微课回顾 | How does stLFR get LFR

 青岛华大团队研发HAST单倍型组装技术,助力构建“PERFECT GENOME”



点击“阅读原文”,联系智造销售



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存